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摘 要 : 近年 来 ， 越 来 越 多 的 人 从 互联 网 上 检索 自己 需要 的 信息 。 检 索 系 统 利用 排名 学 习 算 法 从 训练 集中 产生 一 个 排 
名 模型 。 而 检索 数据 需要 的 时 间 则 是 检索 系统 的 一 种 重要 研究 方向 。 为 了 减少 检索 的 时 间 ， 对 排名 模型 的 剪 枝 策略 和 


缓存 进行 了 研究 。 利 用 决策 树 的 完 余 特性 和 高 速 缓冲 存储 器 ， 提 出 了 剪 枝 决策 树 模型 和 分 块 算 法 。 最 后 ， 在 两 个 公开 
的 数据 集 上 进行 了 实验 ， 主 要 关注 了 是 否 可 以 在 不 影响 模型 效果 下 ， 提 高 排名 模型 的 效率 的 问题 。 实 验 结 果 表 明 剪 枝 
决策 树 模型 和 分 块 算法 可 以 有 效 地 减少 每 个 查询 的 排名 时 间 。 

关键 词 : 排名 学 习 ; 缓存 ; 效率 ; YR 
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Method of pruning decision tree model and block-wise to 
speed-up ranking candidate documents 


Li Weijiang, Chang Wei, Yu Zhengtao 
(School of Information Engineering & Automation, Kunming University of Science & Technology, Kunming 650500, China) 


Abstract: Recently, more and more people start from the Internet to retrieve the information we need. The retrieval system 
uses learning to rank (LtR) algorithms to produce a ranking model from public available training sets. The time required to 
retrieve data is an important research direction of the retrieval system. In order to reduce the retrieval time, the pruning 
strategy of ranking model and cache were studied. Using the redundancy characteristics of the decision tree and the cache, a 
pruning decision tree model and block-wise algorithm are proposed. Finally, this paper aims to answer the question that 
whether it can improve the efficiency of the ranking model without affecting the effectiveness of model. Experiments on two 


publicly dataset show that the pruning decision tree model and block-wise algorithm can effectively reduce the scoring time 


per query. 


je Key words: learning to rank; cache; efficiency; pruning 


是 提高 召回 率 。 这 个 检索 出 候选 文档 集 的 初步 的 过 滤器 通常 是 

一 种 简单 而 快速 的 基本 算法 ， 如 BM25 算法 中、 布尔 模型 和 扩 

在 信息 检索 中 ， 根 据 相 关 性 准则 ， 对 用 户 查询 的 相关 内 容 。” 展 的 布尔 模型 。 这 个 排名 学 习 模型 被 用 于 第 二 个 阶段 ， 排 名 学 
进行 排序 是 一 个 基础 且 重 要 的 问题 。 一 个 名 叫 排 名 学 习 05 的 研习 模型 用 于 重新 排序 这 个 候选 文档 集 。 这 个 阶段 的 目的 是 提高 
究 领 域 显 示 利 用 机 器 学 习 方法 可 以 有 效 解 决 排 名 问题 。 一 种 机 ”准确 度 。 最 终 ， 在 排序 候选 文档 集 之 后 ， 前 RDgq| 文 档 显 示 在 最 
器 学 习 算 法 用 于 从 一 个 包含 相关 性 级 别 的 查询 文档 对 的 数据 集 ” 终 页 面 上 。 在 这 两 阶段 体系 架构 中 ， 因 为 大 量 的 查询 和 用 户 对 
中 训练 出 一 个 排名 模型 。 将 基于 决策 树 的 集合 体 的 排名 学 习 模 。” ”响应 时 间 的 要 求 ， 所 以 用 于 再 次 排序 候选 文档 集 的 时 间 是 非常 
型 用 于 排序 Web 搜索 引擎 返回 的 查询 结果 是 非常 有 效 的 B4。 PRÉ 
一 个 复杂 的 排名 体系 结构 通常 由 检索 候选 文档 和 重新 排序 现代 搜索 引擎 对 于 响应 用 户 查 询 有 非常 严格 的 时 间 限 制 。 
候选 文档 两 部 分 组 成 申 。 第 一 个 阶段 是 从 一 个 倒 排 索引 中 检索 探索 使 用 新 的 策略 和 技术 去 减少 排名 查询 结果 的 时 间 是 一 个 紧 
出 一 个 足够 大 的 候选 文档 集 (CDa) ， 这 个 候选 文档 集 是 可 能 。” 急 的 研究 话题 。 因 此 ， 一 些 研究 者 已 经 开始 去 探索 减少 排名 时 
与 用 户 的 查询 相关 ， 也 有 可 能 不 相关 。|RDq| 表 示 在 最 终 页 面 上 ” 间 的 优化 技术 。 例 如 Lucchese 等 人 中 提出 一 种 名 叫 QuickScorer 
显示 的 相关 文档 的 个 数 ， 并 且 |ICDql>>IRDql。 这 个 阶段 的 目的 ”的 排名 算法 。 这 种 算法 采用 比特 向 量 的 方式 去 展现 一 个 决策 树 
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集合 体 和 新 的 访问 模式 。 Asadi 等 人 [9 通过 将 控制 依赖 转换 为 数 
据 依 赖 的 方式 来 遍历 这 个 决策 树 集合 体 。Lucchese 等 人 外 提出 
种 基于 排名 特征 的 框架 ， 用 于 去 扩展 原始 特征 集 ， 以 减少 排 
名 文档 的 时 间 。Lucchese 等 人 00 提 出 了 一 种 V-QuickScorer 的 
算法 , 这 种 算法 利用 现代 CPU 的 SIMD 指令 集 去 向 量化 处 理 多 
个 文档 排名 。 周 栋 等 人 5 提出 了 个 性 化 跨 语 言 信息 检索 中 结果 
重 排 序 研 究 。 
为 了 减少 每 个 查询 的 排名 时 间 ， 本 文 提出 了 剪 枝 决策 树 模 
型 和 分 块 算法 的 方法 。 该 方法 整合 了 剪 校 和 缓存 两 种 技术 。 一 
方面 ， 当 计算 一 篇 文档 的 得 分 时 候 ， 要 去 遍历 集合 体 中 所 有 的 
决策 树 。 所 以 排名 文档 的 时 间 与 决策 树 的 个 数 成 正比 。 本 文 使 
用 剪 枝 技术 在 不 影响 模型 的 效果 情况 下 去 减少 决策 树 的 个 数 。 
另 一 方面 ， 分 块 技术 将 会 充分 利用 缓存 时 间 局 部 性 原理 ， 以 
便 减 少 排名 查询 的 时 间 。 本 文 的 实验 显示 在 效率 方面 该 方法 要 
比 最 先进 基线 排名 算法 表现 的 更 好 ， 如 StructPlus、VPRED。 
本 文 主要 贡献 如 下 : 

a) 每 一 篇 文档 需要 遍历 集合 体 中 所 有 的 决策 树 , 每 一 个 文 
档 将 有 一 个 用 于 排名 文档 的 得 分 。 预 测 一 篇 文档 得 分 的 时 间 与 
树 的 个 数 成 正比 关系 。 所 以 在 不 影响 排名 模型 的 效果 下 ， 使 用 
剪 枝 技术 去 减少 决策 树 个 数 ， 就 可 以 减少 排名 文档 的 时 间 。 

b) 因为 内 存 访问 延迟 比 缓存 访问 延迟 慢 几 个 数量 级 。 为 了 
更 快 的 排序 文档 ， 本 文 使 用 缓存 技术 去 优化 文档 的 遍历 。 一 个 


候选 文档 集 和 一 个 决策 树 集合 体 的 大 小 可 能 会 超过 缓存 的 容量 ， 


就 会 导致 缓存 的 内 容 被 频繁 的 替换 。 为 了 充分 利用 缓存 的 时 间 
局 部 性 ， 本 文 使 用 分 块 技术 分 别 将 一 个 候选 文档 集 和 一 个 决策 
树 集合 体 划分 到 各 自 几 个 块 中 ， 就 可 以 进一步 减少 排名 时 间 。 


1 ”相关 工作 和 背景 


越 来 越 多 的 文档 出 现在 因特网 中 。 对 于 用 户 的 查询 ， 初 步 
的 过 滤器 算法 将 会 从 互联 网 上 检索 出 更 多 的 相关 文档 ， 这 就 导 
致 排名 候选 文档 需要 更 多 的 时 间 。 

如 今 , 排 名 学 习 算 法 已 经 被 普遍 用 于 解决 大 多 数 排名 问题 。 
这 有 两 种 最 有 效果 的 排名 学 习 算法 。 分 别 是 GBRT (gradient 
boosting regression trees ) 031 和 入 -MART (lambda-multiple 
additive regression tree) (1H。 这 两 种 算法 都 产生 一 个 附加 的 决策 
树 集 合体 模型 。 所 以 ， 下 面 将 回顾 一 些 最 先进 的 诀 策 树 遍 历 算 
法 ， 这 些 算法 将 作为 本 文 算 法 比较 的 基线 。 

a)StructPlus?!, ÈE STRUCT 算法 上 的 改进 。 它 使 用 一 
种 数据 结构 来 实现 树 的 遍历 。 这 个 数据 结构 存储 了 右 左 孩子 节 
点 的 指针 、 特 征 的 下 标 和 冰 值 。 这 个 遍历 过 程 从 一 棵 决策 树 的 
根 节点 开始 。 根 据 遍 历 到 的 分 支 节点 上 的 布尔 条 件 结果 ， 从 根 
节点 移动 到 叶子 节点 。 这 个 叶子 李 点 的 输出 值 表示 了 这 个 树 对 
文档 得 分 的 潜在 贡献 。 这 种 算法 的 缺点 是 : StructPlus 频繁 地 引 
入 控制 依赖 。 也 就 是 说 只 有 在 布尔 条 件 测试 之 后 ， 才 能 知道 下 
一 个 遍历 的 节点 。 所 以 下 一 条 执行 的 指令 依赖 于 布尔 条 件 的 结 
果 。 这 种 算法 的 效率 与 分 支 误 预测 率 有 很 大 的 关系 。 
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b)PREDÜS!, Asadi 等 人 提出 一 种 重 排列 方法 。 它 将 控制 依 
赖 转换 成 数据 依赖 。PRED 算法 将 一 棵 树 转换 为 一 个 数据 结构 
类 型 的 数组 (Node)。Node[i] 表 示 树 上 的 一 个 分 支 或 叶子 节点 。 
它 存储 了 特征 下 标 Cfi) . WE Cheta) 和 一 个 用 于 保存 左右 
孩子 节点 下 标的 数组 Cchild) ,第 一 个 变量 child[0]， 保 存 当前 


节点 的 左 孩子 节点 下 标 位 置 。 Child[1] 保 存 当 前 节点 的 右 孩 子 的 


标 位 置 。 为 了 得 
的 输出 值 : 


到 下 一 个 将 要 遍历 节点 的 下 标 , 将 利用 式 (1) 


v[nidd|i]. fid] > noddil.theta (1) 

A COD 的 输出 值 (011) 被 用 于 child 数组 的 下 标 。 本 文 

使 用 自 循 环 的 方式 去 连接 每 一 个 叶子 节点 到 它 本 身 。 一 个 深度 
为 d 的 树 被 展开 成 d 个 操作 : 


i 
i 


d depth. 


i 


= noddi].child|(v[noddi].fid] > noddi].theta)] 
= noddi].child|(v[noddi].fid] > noddi].theta)] 
(2) 


= noddi].child|(v[noddi].fid] > noddi].theta)] 


ix esc E RAE EE SIXSUET M A, EEA EE 
前 退出 ， 必 须 完成 4 个 操作 。 除 此 之 外 ， 它 还 包含 很 长 的 展开 


代码 。 
c)VPRED!?, 


它 是 在 PRED 算法 上 进行 的 改进 。 它 使 用 


个 向 量化 的 方法 去 计算 多 篇 文档 的 得 分 来 减少 指令 分 支 的 误 预 
测 率 和 掩盖 内 存 的 高 访问 延迟 。VPRED 算法 将 并 行 计算 V 篇 


文档 。 


2 “相关 定义 和 剪 枝 决策 树 模 型 


本 章 将 展现 本 文 使 用 的 一 些 决 策 树 相关 定义 ， 并 介绍 这 个 


剪 枝 决策 树 模型 的 细节 。 


2.1 相关 定义 


一 个 查询 文档 对 (g, d.) 由 一 个 真 值 特征 向 量 工 表示 ， 且 


gue k F 


xLi eth E, R 


N = fn, Hs 


TILTA E 


- (5. 5... JERONE. 


F 值 。 一 棵 树 7 = (QV, L) 包含 一 组 分 支 节点 


.和 一 组 时 子 节点 L = fly lofe 每 一 


N MHARE ARERR H 


f,e 人 和 一 个 阔 值 了 e RR 组 成 。 这 个 布尔 条 件 的 公式 为 


XIG] < y. 


一 个 叶子 节点 7 e 上 都 存储 一 个 预测 值 


lval e R, 用 于 表示 这 棵 树 对 文档 的 潜在 贡献 值 。 假 设 


文档 的 部 分 


特征 值 为 xl] < yo xl0] > E 


X3] > y,. E 


1 显示 了 树 的 遍历 过 程 。 
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x[1]sy3 


定义 1 


测试 为 FALSE， 这 个 节点 就 是 假 节 点 ， 


李 卫 疆 ， 等 : 


x[1]<y0 


na 


图 1 树 的 凯 历 过 程 

Fig.1 Traversal process of tree 
假 节 点 和 真 节 点 。 如 果 一 个 分 支 节点 的 布尔 条 件 
否则 就 是 真 节点 。 在 图 1 


P, nÆ 


定义 2 


历 到 的 节点 是 一 个 假 


真 节点 ，n, An 是 假 节点 。 


退出 节点 。 树 的 遍历 过 程 从 根 节点 开始 。 
节点 (定义 1) ， 则 遍历 当前 


din i 
节点 的 右 分 


支 ， 否 则 遍历 左 分 支 。 这 个 遍 


历 过 程 将 递归 进行 直到 到 达 某 个 


PS 


定义 3 


叶子 节点 。 称 这 个 叶子 节点 为 退出 节点 , 使/ 


je (x) e LERF- 


1 中 ， 叶 子 节点 J 是 这 棵 树 的 退出 节点 。 


查询 文档 对 区 的 子 得 分 。 这 个 子 得 分 表示 某 一 标 


树 了 对 文档 并 的 潜在 贡献 值 。 这 个 子 得 分 将 会 用 到 定义 2 中 的 


退出 节点 。 


Hp: e(X)val 表 示 树 下 中 退出 节 


weR. 
定义 4 


Nar 


EET mue: 


计算 公式 如 下 : 


subscor&x) = wx e(x).val (3) 
点 的 预测 值 。 树 工 权重 是 


文档 最 终 得 分 。 这 个 得 分 用 于 排序 文档 。 所 有 在 


遍历 过 程 。 这 个 最 


终 得 分 用 到 定义 3 中 的 子 得 分 。 文 档 的 最 终 得 分 s(x) 通过 
合体 工 中 的 每 一 棵 树 工 的 贡献 值 进行 加 权 求 和 得 到 。 


对 集 


2.2 


r|-i 
s(x)- >》 subscore, (x) 
h-0 
r|-i 
= > Ww, X e, (x).val 


h-0 


(4) 


剪 枝 决策 树 模型 


有 一 


GBRT 和 入 -MART 算法 都 产生 一 个 附加 决策 树 集合 体 。 这 
开源 实现 了 上 E 


HARRAN. FARA A 


这 些 模型 可 以 得 到 较 高 的 召回 率 和 准确 率 ， 但 是 响应 时 间 非 党 
的 长 。 这 是 因为 排名 时 间 与 决策 树 的 个 数 成 正比 关系 。 因 此 ， 


本 文 提 出 了 一 个 剪 枝 的 决策 树 模型 。 在 不 影响 原始 模型 的 效果 
下 ， 减 少 模型 中 决策 树 的 个 数 。 
本 节 主 要 介绍 这 个 
剪 枝 决策 树 模型 分 为 两 个 步骤 : a) 使 用 
生 一 个 较 好 的 模型 ， 


剪 枝 决策 树 模 型 的 一 些 细 节 。 得 到 这 个 
GBRT 或 入 -MART 算法 产 


少 原始 模型 中 决策 树 的 


b) fs FH BS X R E UR 


加 快 排序 文档 的 剪 枝 决策 树 和 分 块 的 方法 
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个 数 。 
第 一 步 , 本 文 首先 使 用 GBRT 算法 产生 决策 树 模型 GBRT 
通过 最 小 化 均 方 根 误 差 来 构建 决策 树 模 型 。GBRT 使 用 一 个 训 


(le yib- Ann 


L(y, F(X) = |y — F O| 和 选 代 次 数 M。 这 种 算法 首先 使 用 


练 集 一 个 损失 函数 


个 常量 进行 初始 化 。 


EQ) = arg min LG. 7) G) 


H 


PIER M CRISE M 棵 树 ， 以 提高 决策 树 模型 的 质量 


5- [Exe » 
OF (x) F(x)=F, 4 (x) 
m sign(y, -F, a8) 
for i-1,...,n (6) 
X AW O, y p ,是 用 于 训练 这 个 学 习 器 。 通 过 求 
解 下 面 一 维 优化 问题 来 计算 : 


Ym —8rg min » L, Fa Qu) + hu (Xi)) 
i-i 


= arg min Ý |y, -Fna n — 0 
Yi —F,. 408) ER 
"| Oh 7 
最 后 更 新 决策 树 集 合体 : 
F, (x) 一 Pa (x) T Y mhn (x) (8) 


第 二 步 ， 本 文 使 用 


种 剪 枝 技 术 去 剪 梳 刚 刚 得 到 的 模型 。 


给 定 一 个 集合 体 厂 ， 剪 枝 技术 将 产生 一 个 更 小 的 集合 体 工 ，， 


至 少 与 原来 集合 体 工 


相同 的 质量 , 但 有 更 高 的 效率 。 


剪 枝 


技术 分 为 两 步 : a) 使 用 剪 枝 策略 将 工 SERE T ET, b) 


使 用 线性 搜索 算法 更 新 剩 下 树 工 ,的 权重 值 ， 


以 改善 一 个 指定 


的 损失 函数 。 

首先 使 用 剪 枝 策 略 删除 集合 体 中 一 些 树 。 这 一 

叫 质量 损失 的 剪 枝 策略 去 减少 决策 树 的 个 数 。 
定义 5 质量 损失 。 根 据 每 一 棵 树 对 一 个 指定 的 损失 函数 


步 使 用 一 个 


平均 质量 损失 值 是 通过 


L 的 影响 去 删除 树 。 对 于 一 个 树 工 ， 


Æ s(x) — subscore (x) 来 计算 ， 其 中 subscore, (x) 和 
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ri, #: 


s(x) 在 定义 3 和 4 中 。 影 响 最 小 的 n-p 棵 树 就 会 从 集合 体 中 


删除 。 


A Jc f FH 2R H 


搜索 算法 调整 剩 下 树 工 , 的 权重 值 。 


LIR >R 表示 一 个 指定 的 损失 函数 ， 


A = (Wi Wans wj 表示 在 剪 枝 之 后 树 的 权重 值 .使 


对 权重 值 进行 优化 : 


A= 


JR C9) 


arg min L(A) 


AeR? 


(9) 


因为 大 多 数 损失 函数 是 不 可 微分 ， 计 算 A 是 不 太 可 能 的 ， 


所 以 使 用 


种 启发 式 方法 去 优化 剩余 树 的 权重 值 A 。 首 先 找到 


一 个 沿 


着 损失 函数 工 下 降 方 向 De R”。 


然后 计算 一 个 步 长 


加 快 排序 文档 的 剪 枝 决 


, ChinaXi 
策 树 和 分 块 的 方法 
b) 使 用 剪 枝 策略 去 减少 排名 模型 中 树 的 个 数 


重 值 ”， 这 一 步 对 应 图 2 中 标 2 的 边 ; c) 使 用 
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更 新 剩余 树 的 权 


缓存 技术 去 计算 


所 有 文档 的 得 分 ， 然 后 使 用 这 些 得 分 排名 文档 ， 这 一 步 对 应 标 


3 的 边 。 


本 文 提出 的 方法 可 以 减少 排名 时 间 主 要 有 两 个 


计算 文档 得 分 的 时 间 与 决策 


减少 树 的 个 数 时 ， 计 算 文档 得 分 时 间 就 会 减少 ; 


树 


天 


:第 一 ， 


原 


个 数 成 正比 ， 


a 


访问 延迟 比 内 存 快 几 百倍 ， 


当 算法 需要 的 文档 入 


中 ， 计 算 文 档 得 分 的 时 间 就 会 进一步 减少 。 


这 个 剪 校 和 基于 分 块 的 方法 分 为 
图 2 左上 方 。 该 剪 枝 过 程 在 不 影 
减少 模型 中 决策 树 的 个 数 。 所 以 ， 本 文 
型 作为 最 终 的 排名 模型 。3. 2 节 中 


程 。 对 应 


Tk Hl SECUN S 
， 缓 存 的 
策 树 在 缓存 


A — 


[2—— 


5 个 部 分 :第 一 是 剪 枝 过 
揣 原始 模型 的 效果 下 ， 
使 用 这 个 剪 枝 决策 树 模 
介绍 了 这 个 前 枝 决 策 树 模型 。 


a 以 便 最 小 化 CA 二 CxDD) 值 。 这 个 过 程 将 一 直 迭 代 ， 直 第 二 是 缓存 方案 ， 对 应 图 2 左下 方 。 下 面 的 章节 主要 描述 基于 
到 小 于 指定 的 阔 值 。 分 块 的 算法 。 
32 分 块 技术 
3 HH 块 的 方 ; 
校 和 基于 分 块 的 方法 本 节 主 要 描述 基于 分 块 算法 实现 的 细节 。 本 文 提 出 使 用 分 
本 章 将 展现 这 个 剪 枝 和 分 块 算法 的 方法 并 描述 其 中 细节 。 ” 块 方 案 主要 是 因为 缓存 访问 延迟 比 内 存 快 几 百 倍 ， 所 以 希望 能 
研究 者 们 已 经 证 明 排 名 学 习 模 型 可 以 有 效 的 解决 排名 问题 ， 与 从 缓存 中 获取 文档 和 排名 器 (决策 树 )。 但 是 缓存 通常 非常 小 ， 


此 同时 ， 


搜索 引擎 中 ， 本 文 提出 使 用 剪 枝 和 缓存 两 种 技术 去 减少 排 
间 的 方法 。 和 希望 通过 使 用 这 种 方法 可 以 将 排名 模型 应 / 


响应 时 间 也 很 长 。 


搜索 引擎 中 。 


3.1 


BIJ 
7J 


本 


枝 和 分 块 方法 


节 主 要 


训练 集 和 验证 集 


GBRTRIA-MART 


述 该 方法 的 结构 。 
这 种 方法 的 过 程 可 以 分 成 三 步 :a) 
训练 集中 训练 出 一 个 决策 树 模 型 ,这 一 步 对 应 


为 了 使 这 些 有 效 的 模型 应 用 到 现代 
名 时 


现代 


到 


多 


到 2 描述 了 方法 的 大 体 流 程 。 
使 用 GBRT 或 入 -MART 算法 从 


2 中 标 1 的 边 ; 


m 


IE 


排序 结果 


图 


2 


; ll 
| J TE 
分 块 (缓存 ) 技术 T! 


缓存 不 能 包含 所 有 的 候选 文档 和 模型 


存 中 的 内 容 被 频繁 的 替换 ， 这 将 导致 缓存 时 间 


非常 低 。 为 了 改善 缓存 时 间 
块 算法 。 


相 E. 


Es 
局 


部 性 的 利用 率 ， 


分 块 算法 的 主要 思 
分 别 划分 到 各 
同时 放 入 到 缓存 中 。 


d AE 


剪 校 和 分 块 方法 


Fig.2 Pruning and block-wise approach 


基于 分 块 算法 实现 细节 : VASE EH VUA CES BRIT). 
最 外 层 的 两 个 循环 用 于 处 理 文档 块 与 排名 器 块 之 间 的 交互 ， 而 
最 内 层 的 两 个 循环 用 于 处 理 一 个 文档 块 中 的 文档 与 一 个 排名 器 


块 中 的 排名 器 之 间 的 交互 。 假 设 候选 文档 集中 


自 的 几 个 块 中 ， 


将 


Ph 所 有 的 排名 器 ， 因 此 组 


局 部 性 的 利 
本 文 提出 


于 分 


个 大 的 候选 文档 集 和 排名 模型 


一 个 文档 块 和 一 个 排名 器 块 可 以 


包含 D 篇 文档 ， 


决策 树 集合 体 中 包含 S 棵 排名 器 。 一 个 文档 块 中 包含 d 篇 文档 ， 
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一 个 排名 器 块 中 包含 s 棵 排名 器 。 


站 


D S 
一 共有 一 个 文档 块 和 二 
d S 


排名 器 块 。 为 了 简化 算法 的 描述 ， TE 一 和 本 URL 候 
选 文 档 与 排名 器 的 遍历 过 程 显 示 在 图 2 的 右 半 部 分 ， 且 边 上 的 
数字 表示 了 文档 块 与 排名 器 块 之 间 的 访问 顺序 。 

根据 上 面 的 分 析 ， 本 文 给 出 算法 1。 

算法 1 分 块 算法 . 

Input: 

documents : 候选 文档 集 ; 

ensemble : 决策 树 集 合体 ; 

D : 候选 文档 中 的 文档 个 数 ; 

d : 一 个 文档 块 中 文档 的 个 数 ; 

S : 决策 树 集 合体 中 决策 树 的 个 数 ; 

s : 一 个 决策 树 块 中 决策 树 的 个 数 ; 

Output: 

scores : 文档 得 分 的 集合 体 ， 一 篇 文档 一 个 得 分 


S 
fori-0to 一 -1do 
S 


, D 
forj=0to 一 -1 do 
d 


for ii = 0 to s - 1 do 


for jj = 0 to d-1 do 


subscor&x;.,, 5) = Wixs+ii X Css ui X) val ( 见 定义 3) 


scores(x pa jj )+ = subscore(x paj) MEXA 


end for 
end for 
end for 


end for 


4 S 


在 两 个 公共 可 用 的 数据 集 上 进行 了 


据 集 是 Microsoft LETOR (MSLR-10K) 


一 系列 实验 。 这 两 个 数 


(Microsoft Learning to 


rank dataset. http://research.microsoft.com/en-us/projects/mslr) 和 


Istella 提供 的 一 个 新 数据 集 CIstella-s) (Istella Blog, Istella 


Learning to Rank dataset. 
http://blog.istella.it/istella-learning-to-rank-dataset/ ) 。 第 一 个 数 
据 集 包 含 五 个 文件 夹 ， 本 文 的 实验 仅 使 用 了 第 一 个 文件 夹 
(MSN-1) 。MSN-1 数据 集中 每 一 个 查询 文档 对 由 136 个 特征 表 
示 。Istella-s 数据 集 包 含 3 408 630 个 查询 文档 对 。 每 一 个 
文档 使 用 220 个 特征 来 表示 。 每 一 个 查询 文档 对 都 有 一 个 相关 
性 判断 级 别 ， 范 围 从 CAR) 一 4 GEX HX) 。 所 有 数据 
集 都 被 划分 成 训练 集 、 验 证 集 和 测试 集 三 个 部 分 。 所 占 比例 分 
别 是 60%-20%-20%。 


等 : 加 快 排序 文档 的 剪 枝 决策 树 和 分 块 的 方法 


所 有 实验 运行 在 一 个 Linux 计算 机 上 , 它 
3.7 GHz 和 一 个 8 GB 的 内 存 组 成 。 
32 KB; L2 的 缓存 
核 共享 的 3 MB 的 L3 缓存 。 


的 13-6100 CPU， 且 主 频 是 
CPU 缓存 级 别 : L1 数据 缓存 ， 


在 实验 中 使 


1 NDCG@10 对 


10 
NDCG@10=N > g(r,)d()) 


量 是 每 一 个 核 是 256 KB 和 所 


ChinaX i 
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一 个 2 核 Intel 


且 每 一 个 核 是 


训练 的 模 下 


型 进行 


j=l 


其 中 : N" 是 一 个 归 一 化 的 因子 ， 表示 


DCG fy; rj; 表示 第 j 个 文档 
数 : 


的 相关 怕 


gr) -2"- 
d(j) 通 过 式 (12) 计算 : 
d()=—— 
SEES 


在 本 文 的 实验 中 ， 将 剪 校 
和 效果 上 进行 比较 : 


和 分 块 算法 与 下 


效果 评估 。 


(10) 


个 最 理想 的 排名 结果 的 
ERA; gr) 7e — ER 


(11) 


(12) 


面 的 算法 在 效率 


a) 标准 遍历 算法 。 
b) 不 使 用 缓存 技术 。 


M 


篇 文档 直接 遍历 所 


的 树 。 


c) StructPlus 和 VPREDUI 。 


笔者 进行 了 下 再 
和 效果 。 
4.1 效果 分 析 

本 文 框架 首先 使 用 剪 枝 技术 去 删除 集合 体 
更 新 剩余 树 的 权重 。 所 以 ， 首 先 评估 剪 枝 之 后 
组 实验 中 进行 两 个 子 实验 , 分 别 使 用 


个 公开 的 数据 集 CMSN-1 和 Is 
为 了 更 好 地 分 析 不 同 参数 值 对 
验 中 使 用 不 同 的 剪 枝 率 和 叶子 
0 d. 0 3; 
P=0 时 ， 这 个 NDCG@10 的 值 表 

前 模型 的 效果 评估 值 。 两 个 


0.5 
49 
48 
47 
46 
45 
44 
43 
42 
4l F —e— 16 leav 

0.4 
0. 39 
0. 38 


NDCG@10 


E CEU CE 


一 人 一 8 leave 


—9— 64 leaves 


DCG@10 的 影响 ， 
节点 个 数 。 设 置 


ee ，0.9， 且 叶子 节点 的 个 数 为 8, 16,32,64. 25 


示 原 始 模型 的 效 


GBRT 和 入 -MART 算法 从 两 
tella-s) 训练 出 一 个 排名 模型 。 


[的 三 组 实验 来 分 析 剪 枝 和 分 块 算法 的 效率 


中 一 些 树 ， 然 后 
模型 的 效果 。 这 


在 每 一 个 子 实 
剪 枝 率 P 为 0， 


果 得 分 ， 即 剪 枝 


子 实验 的 结果 显 


S 


示 在 图 3 中 。 


es 


—9— 32 leaves 


0 Our LEE 


图 3(a) 使 


Fig.3(a) 


] GBRT 算法 和 MSN-1 数据 入 
的 NDCG@10 的 评 


率 (P) 


估 值 


and MSN-1 dataset 


长 在 不 同 叶子 节点 和 剪 枝 率 下 


NDCG@10 in vary leaf and pruning rate with GBRT algorithm 
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0. 76 algorithm and Istella-s dataset 
" ie 从 上 面 两 个 子 实验 中 可 以 看 出 ， 在 不 同 的 剪 枝 率 下 ， 具 有 
hs 较 少 叶子 节点 〈8,16) 的 模型 比 具 有 较 多 叶子 节点 (32,64) 的 
20. 66 模型 有 更 好 的 效果 评估 ， 且 较 少 叶子 节点 的 模型 的 效果 比较 多 
&0. 64 = R EU Jud sc i = 
So. 62 叶子 节点 的 模型 的 效果 下 降 得 更 慢 。 本 选择 这 个 最 小 的 〈 即 最 
Z rs ^l 
M decem 有 效率 的 ) 剪 枝 模 型 ， 但 仍然 提供 比 原始 模型 在 验证 集中 相等 
| 或 更 大 的 效果 评估 。 最 终 选择 的 剪 枝 模型 显示 在 表 1 中 。 
0.54 | 一 e 一 32 leaves E Ee "e Bub vh A 
e sempi leaves dé 1 显示 在 不 同时 子 节点 和 数据 集 下 最 终 选 择 的 剪 枝 决策 
0 0.10.20.30.40.50.60.70.80.9 树 模 型 。 从 剪 枝 率 的 方面 来 看 ， 高 亮 和 加 粗 的 部 分 表示 最 好 的 
J 2 y x p ` -hke 
ai 前 枝 模型 。 从 表 1 可 以 看 出 ， 通 过 使 用 前 枝 技术 ， 可 以 显著 地 
图 3(b) 使 用 和 -MART 算法 和 Istella-s 数据 集 在 不 同 叶子 节点 和 前 枝 减少 集合 体 中 30% 到 70% 的 决策 树 ， 且 不 影响 原始 模型 的 效果 ; 
率 下 的 NDCG@10 的 评估 值 还 可 以 观察 到 具有 较 少 的 叶子 的 模型 中 有 更 高 的 剪 枝 率 。 因 此 ， 
Fig.3(b) NDCG(210 in vary leaf and pruning rate with 和 -MART 本 文选 择 高 亮 和 加 粗 的 剪 枝 决 策 树 模型 作为 下 面 实验 的 模型 。 
表 1 不 同 设置 下 的 效果 评估 
Table ] Effectiveness under different setting 
叶子 节点 个 数 
算法 和 数据 集 8 16 32 64 
树 个 数 HRK NDCG@10 树 个 数 BE NDCG@10 树 个 数 ” 剪 枝 率 NDCG@10 树 个 数 I NDCG@10 
GBRT 和 MSN-1 
777 -— 0.4734 903 -— 0.4764 553 -— 0.4800 470 -— 0.4811 
未 前 梳 
GBRT 和 MSN-1 
233 0.7 0.4735 451 0.5 0.4767 498 0.1 0.4805 423 0.1 0.4816 
剪 枝 
-MART 和 Istellas 未 剪 枝 — 999 -— 0.7263 672 -— 0.7317 695 -— 0.7371 604 E 0.7373 
A-MART 和 Istella-s 
600 0.4 0.7264 470 0.3 0.7321 625 0.1 0.7389 604 0 0.7373 


剪 枝 


42 缓存 行为 分 析 

本 文 算法 使 用 了 缓存 技术 去 减少 排名 文档 的 时 间 。 这 种 基 
于 分 块 的 算法 将 一 个 候选 文档 集 和 决策 树 集合 体 分 别 划分 到 各 
自 几 个 块 中 。 一 个 包含 d 个 文档 的 文档 块 和 一 个 包含 s 个 排名 
器 的 排名 器 块 被 放 入 到 缓存 中 。 本 文 将 分 析 不 同文 档 个 数 d 和 
不 同 排 名 器 个 数 s 对 13 缓存 的 失误 率 和 排名 时 间 的 影响 ,Linux 
的 Perf 工具 分 析 L3 缓存 的 未 命中 率 。 


HER) Cu s) 


100 
90 
80|— —e— s-10 
T0 | —9— s-50 


L3 未 命中 率 


10 50 100 500 1000 5000 10000 


—9— s-100 
SL ees 一 个 文档 块 中 文档 的 个 数 Ca) 
50 = E 
dien 图 4 (b) 在 不 同 d 和 s 下 ,MSN-1 数据 集中 计算 一 篇 文档 得 分 的 平均 


—€— s-5000 


时 间作 


L3 缓存 未 命中 率 (%) 


Fig.4(b) ranking time per document in hs when varying d and s under 


MSN-1 datasets 
: 10 50 100 500 1000 5000 10000 4 GO 显示 了 分 块 算法 在 不 同 的 d 和 s P L3 缓存 的 未 
ATACAR Ca 命中 率 。 这 个 趋势 与 图 4 O) 中 排名 时 间 曲 线 有 很 大 的 关系 。 
图 4 (a 显示 L3 在 不 同 的 d Rl s 下 的 未 命中 率 图 4 (b) 显示 在 不 同 的 d 和 s 下， 计算 一 篇 文档 得 分 需要 的 时 
Fig.A(a) L3 miss ratio when varying d and s for Block-wise algorithm 间 。 从 图 4 Ca) 和 CbO 中 可 以 看 出 ， 当 d=1000 和 s=500 时 到 


达 了 这 个 最 优点 ， 即 这 些 文档 和 决策 树 正好 放 入 到 缓存 中 ， 并 
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且 循环 次 数 也 降 到 最 低 ， 当 s=500 时 ，L3 的 未 命中 率 从 2.11% 
(d=1000) 变化 到 82.2296 (d-10000) ， 因 此 ， 对 应 的 排名 时 
间 从 3.0191 ns 变化 到 152335 ns。 在 下 面 的 实验 中 将 设置 
d=1000 H. s=500。 
4.3 时 间 复 杂 度 的 分 析 
在 本 节 中 将 分 析 各 个 排名 模型 的 时 间 复 杂 度 ， 以 形式 化 地 
观察 各 个 排名 模型 的 排名 效率 。 
本 算法 的 时 间 复 杂 度 主要 是 3. 2 节 中 的 算法 1， 该 算法 利 
缓存 技术 将 文档 集 和 决策 树 进行 分 块 。 利 用 缓存 速度 快 的 优 
点 ， 提 高 排名 模型 的 效率 。 
算法 1 主要 有 四 层 循环 。 为 了 简化 描述 ， 这 里 假设 s 个 决 
策 树 和 a 个 文档 可 以 同时 放 入 到 缓存 中 。 在 最 内 层 循环 中 ， 将 
d 篇 文档 从 内 存 加 载 到 缓存 的 时 间 为 O(d) 。 在 第 三 层 循环 中 ， 
将 s 个 决策 树 加 载 到 缓存 的 时 间 为 DO(8) 。 缓 存 可 以 同时 容 下 
d 篇 文档 和 s 个 决策 树 。 所 以 这 个 两 层 的 时 间 复 杂 度 为 
O(s 十 d) 。 在 第 二 层 循 环 中 ，s 个 决策 树 仍然 在 缓存 中 ， 但 
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OG) 704) =0(s 十 D) 。 在 最 外 层 循环 中 ， tinis S. 
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的 总 时 间 复 杂 度 为 


块 决 策 树 到 缓存 中 ， 因 此 算法 1 


? Otsy (Su o5 , 
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在 不 使 用 缓存 技术 算法 、 标 准 遍 历 算法 和 StructPlus 算法 
中 ， 它 们 都 是 一 篇 文档 和 一 个 决策 树 进行 遍历 ， 因 此 这 三 种 算 
法 的 时 间 复 杂 度 为 O(S$SD) 。 本 文 算法 相 比 这 三 种 算法 快 了 s 
i. Wi Vpred 算法 采用 了 并 行 化 的 技术 ， 同 时 计算 v 篇 文档 的 
更 用 并 行 化 技术 来 掩盖 低 内 存 的 访问 延迟 。 在 文献 [8] 
中 表明 当 v=16 时 ， 该 算法 表现 的 效果 最 好 ， 
O(SD) 
16 
上 看 ， 算 法 1 比 其 他 算法 的 时 间 复 杂 度 都 要 低 。 
在 4. A 节 中 将 进行 四 组 实验 来 验证 各 个 排名 模型 在 不 同 数 
据 集 上 的 排名 时 间 。 
4.4 排名 时 间 的 分 析 
本 文 的 目的 是 减少 排名 时 间 以 将 有 效果 的 排名 模型 应 用 到 
搜索 引擎 中 。 所 以 本 节 中 将 剪 枝 和 分 块 算法 与 其 他 排名 算法 在 
效率 方面 进行 比较 。 这 组 实验 中 进行 了 四 个 子 实验 。 
表 2 和 3 中 分 别 显示 了 GBRT 算法 和 入 -MART 算法 在 
MSN-1 和 Istella-s 数据 集 下 不 同 的 遍历 算法 计算 一 篇 文档 得 分 
的 时 间 Cus) 。 表 2 和 3 同样 在 括号 中 显示 剪 枝 和 分 块 算法 比 
其 他 算法 的 增 速 比 。 例 如 ， 在 计算 一 篇 文档 的 得 分 时 间 上 ， 本 
文 算法 比 VPRED (v=16) 算法 快 了 1.17~2.24 倍 。 在 MSN-1 
数据 集 和 叶子 节点 个 数 为 8 FP GE 2) ， 本 文 算法 和 VPRED 
算法 计算 一 篇 文档 得 分 时 间 分 别 为 3.0191 ns 和 6.79 us. A 
2 、3 中 可 以 看 出 ， 在 不 同 的 设置 下 ， 剪 枝 和 分 块 算法 在 效率 


因此 算法 的 时 间 


。 从 4.2 节 中 得 到 s >> 16。 从 时 间 复 杂 度 
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方面 比 其 他 算法 表现 得 要 好 ， 显 示 了 本 文 算法 比 其 他 算法 在 排 
名 时 间 上 快 了 1.17 一 10.35 倍 。 
表 2 MSN-1 数据 集 且 GBRT 的 决策 树 模 型 下 , 剪 枝 和 分 块 算法 .不 使 
缓存 ,VPRED、StructPlus 和 标准 遍历 算法 排名 一 篇 文档 的 时 间 /hs 


Table 2 ”Per-document scoring time (us) of pruning and block-wise, No 
use cache, VPRED, StructPlus, and reference on MSN-1 dataset under 


GBRT decision tree model 


. : 叶子 节点 个 数 
遍历 算法 
8 16 
剪 枝 和 分 块 算法 
3.0191(8]]:3E 0.7) ”8.4304( 前 枝 率 0.5) 
(d=1000 and s=500) 

不 使 用 缓存 7.3224(2.43x) 20.6485(2.45x) 
标准 遍历 31.2462(10.35x) 80.6496(9.57x) 
StructPlus 22.68(7.51x) 55.01(6.53x) 


VPRED(v=16) 6.79(2.24x) 15.10(1.79x) 


表 3 在 Istella-s 数据 集 且 入 -MART 模型 下 , 剪 枝 和 分 块 算法 .不 使 用 组 
ff, VPRED, StructPlus 和 标准 遍历 算法 排名 一 篇 文档 的 时 间 


Table 3 Per-document scoring time (hs) of pruning and block-wise, No 


use cache, VPRED, StructPlus, and reference on Istella-s dataset under 


和 -MART 
. . 叶子 节点 个 数 
遍历 算法 
8 16 
剪 枝 和 分 块 算法 
7.1993( 前 枝 率 0.4) 9.2954( 前 枝 率 0.3) 
(d=1000 and s=500) 
不 使 用 缓存 22.5395(3.13x) 38.8463(4.17x) 
标准 遍历 37.8187(5.25x) 57.6416(6.20x) 
StructPlus 28.36(3.94x) 35.49(3.82x) 
VPRED(v=16) 8.71(1.21x) 10.86(1.17x) 
5 ”结束 语 


现代 搜索 引擎 对 响应 用 户 查 询 有 严格 的 时 间 限 制 。 本 文 提 
出 了 一 种 方法 去 减少 排名 候选 文档 的 时 间 ， 以 将 高 质量 的 排名 
模型 用 于 现代 搜索 引擎 中 。 这 种 方法 整合 了 剪 枝 决策 树 模型 和 
分 块 算法 。 在 相同 的 时 间 限 制 下 ， 该 方法 可 以 排名 更 多 文档 ， 
从 而 获得 更 好 的 召回 率 和 准确 率 。 实 验 结果 表明 了 该 方法 可 以 
在 不 影响 模型 的 质量 下 ,有 效 地 减少 每 个 查询 所 需 的 排名 时 间 。 
对 于 将 来 的 工作 ， 笔 者 打算 应 用 这 个 框架 到 其 他 方面 ， 如 分 类 
等 方向 。 
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